@ignorenonframefalse

Компьютерный практикум по статистическому анализу данных

Лабораторная работа №7: Введение в Data Science

Кармацкий Никита Сергеевич

Российский университет дружбы народов, Москва, Россия

Цель лабораторной работы

  • Изучить специализированные пакеты Julia для обработки данных.

Выполнение лабораторной работы. Julia для науки о данных

В Julia для обработки данных используются наработки из других языков программирования, в частности, из R и Python.

Считывание данных

Установка пакетов

Считывание данных

Считывание данных и запись в структуру

Считывание данных

Пример

Считывание данных

Поиск “julia” со строчной буквы

Считывание данных

Изменение исходной функции

Считывание данных

Построчное считывание данных

Запись данных в файл

Запись данных в файл

Запись данных в файл

Пример с указанием типа данных и разделителем данных

Запись данных в файл

Проверка корректности считывания созданного текстового файла

Словари

Инициализация словаря

Словари

Инициализация пустого словаря

Словари

Заполнение словаря данными

Словари

Пример работы словаря

DataFrames

Пример создания структуры DataFrame

RDatasets

Работа с пакетом RDatasets

RDatasets

Получение основных статических сведений о каждом столбце в наборе данных

Работа с переменными отсутствующего типа (Missing Values)

Использование “отсутствующего” типа

Работа с переменными отсутствующего типа (Missing Values)

Операция сложения числа и переменной с отсутствующим типом

Работа с переменными отсутствующего типа (Missing Values)

Пример работы с данными, среди которых есть данные с отсутствующим типом

Работа с переменными отсутствующего типа (Missing Values)

Игнорирование отсутствующего типа

Работа с переменными отсутствующего типа (Missing Values)

Формирование таблиц данных и их объединение в один фрейм

FileIO

Подключение пакетов

FileIO

Загрузка изображения

FileIO

Определение типа и размера данных

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Подключение нужных пакетов

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Загрузка данных

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Построение графика цен на недвижимость в зависимости от площади

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Построение графика без “артефактов”

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Построение графика с кластерами разных цветов

Обработка данных: стандартные алгоритмы машинного обучения в Julia. Кластеризация данных. Метод k-средних

Построение графика с кластерами разных цветов по почтовому индексу

Кластеризация данных. Метод k ближайших соседей

Отображение на графике соседей выбранного объекта недвижимости

Кластеризация данных. Метод k ближайших соседей

Определение районов соседних домов

Обработка данных. Метод главных компонент

Попытка уменьшения размера данных о цене и площади из набора данных домов

Обработка данных. Линейная регрессия

Исходные данные

Обработка данных. Линейная регрессия

Применение функции для построения графика

Обработка данных. Линейная регрессия

Сравнение

Самостоятельная работа

Решение задания №1

Самостоятельная работа

Решение задания №2

Самостоятельная работа

Решение задания №2

Самостоятельная работа

Решение задания №3

Самостоятельная работа

Решение задания №3

Самостоятельная работа

Решение задания №3

Вывод

  • В ходе выполнения лабораторной работы были изучены специализированные пакеты Julia для обработки данных.

Список литературы. Библиография

[1] Julia Documentation: https://docs.julialang.org/en/v1/